自动识别脚本是多语言OCR引擎的重要组成部分。在本文中,我们介绍了基于CNN-LSTM网络的高效,轻量级,实时和设备空间关注,用于场景文本脚本标识,可在资源受限移动设备上部署部署。我们的网络由CNN组成,配备有空间注意模块,有助于减少自然图像中存在的空间扭曲。这允许特征提取器在忽略畸形的同时产生丰富的图像表示,从而提高了该细粒化分类任务的性能。该网络还采用残留卷积块来构建深度网络以专注于脚本的鉴别特征。 CNN通过识别属于特定脚本的每个字符来学习文本特征表示,并且使用LSTM层的序列学习能力捕获文本内的长期空间依赖关系。将空间注意机制与残留卷积块相结合,我们能够增强基线CNN的性能,以构建用于脚本识别的端到端可训练网络。若干标准基准测试的实验结果证明了我们方法的有效性。该网络实现了最先进的方法竞争准确性,并且在网络尺寸方面优越,总共仅为110万个参数,推理时间为2.7毫秒。
translated by 谷歌翻译
Recovery of true color from underwater images is an ill-posed problem. This is because the wide-band attenuation coefficients for the RGB color channels depend on object range, reflectance, etc. which are difficult to model. Also, there is backscattering due to suspended particles in water. Thus, most existing deep-learning based color restoration methods, which are trained on synthetic underwater datasets, do not perform well on real underwater data. This can be attributed to the fact that synthetic data cannot accurately represent real conditions. To address this issue, we use an image to image translation network to bridge the gap between the synthetic and real domains by translating images from synthetic underwater domain to real underwater domain. Using this multimodal domain adaptation technique, we create a dataset that can capture a diverse array of underwater conditions. We then train a simple but effective CNN based network on our domain adapted dataset to perform color restoration. Code and pre-trained models can be accessed at https://github.com/nehamjain10/TRUDGCR
translated by 谷歌翻译
高维计算(HDC)是用于数据表示和学习的范式,起源于计算神经科学。HDC将数据表示为高维,低精度向量,可用于学习或召回等各种信息处理任务。高维空间的映射是HDC中的一个基本问题,现有方法在输入数据本身是高维时会遇到可伸缩性问题。在这项工作中,我们探索了一个基于哈希的流媒体编码技术。我们正式表明,这些方法在学习应用程序的性能方面具有可比的保证,同时比现有替代方案更有效。我们在一个流行的高维分类问题上对这些结果进行了实验验证,并表明我们的方法很容易扩展到非常大的数据集。
translated by 谷歌翻译
我们提出了一个新的框架,用于对凸函数的差异私有优化,这些功能是任意规范$ \ normx {\ cdot} $中的Lipschitz。我们的算法基于一种正规的指数机制,该机制从密度$ \ propto \ exp(-k(f+\ mu r))$中进行样品,其中$ f $是经验损失,$ r $是一种常规化器,它与强烈的convex convex converize尊重$ \ normx {\ cdot} $,将\ cite {gll22}的最新作品推广到非Euclidean设置。我们表明,这种机制可以满足高斯差异隐私,并通过使用凸几何形状的本地化工具来解决DP-MER(经验风险最小化)和DP-SCO(随机凸优化)。我们的框架是第一个在一般规范空间中适用于私有凸优化的框架,并直接恢复了镜下下降的非私有SCO率,作为隐私参数$ \ eps \ to \ infty $。作为应用程序,对于LipsChitz优化了$ \ ell_p $ norms for(1,2)$中的所有$ p \ norms,我们获得了第一个最佳隐私性权衡权衡;对于$ p = 1 $,我们提高了最近的作品\ cite {asifkt21,bassilygn21}获得的权衡,至少通过对数因素。我们的$ \ ell_p $ norm和schatten- $ p $规范优化框架与多项式时间采样器相辅相成,我们的查询复杂性明确绑定。
translated by 谷歌翻译
在本文中,我们研究了非平滑凸函数的私人优化问题$ f(x)= \ mathbb {e} _i f_i(x)$ on $ \ mathbb {r}^d $。我们表明,通过将$ \ ell_2^2 $正规器添加到$ f(x)$并从$ \ pi(x)\ propto \ exp(-k(f(x)+\ mu \ \ | | x \ | _2^2/2))$恢复已知的最佳经验风险和$(\ epsilon,\ delta)$ - dp的已知最佳经验风险和人口损失。此外,我们将展示如何使用$ \ widetilde {o}(n \ min(d,n))$ QUERIES $ QUERIES $ f_i(x)$用于DP-SCO,其中$ n $是示例数/用户和$ d $是环境维度。我们还在评估查询的数量上给出了一个(几乎)匹配的下限$ \ widetilde {\ omega}(n \ min(d,n))$。我们的结果利用以下具有独立感兴趣的工具:(1)如果损失函数强烈凸出并且扰动是Lipschitz,则证明指数机制的高斯差异隐私(GDP)。我们的隐私约束是\ emph {optimal},因为它包括高斯机制的隐私性,并使用等仪不等式证明了强烈的对数concove措施。 (2)我们展示如何从$ \ exp(-f(x) - \ mu \ | x \ | |^2_2/2)$ g $ -lipschitz $ f $带有$ \ eta $的总变化中的错误(电视)使用$ \ widetilde {o}((g^2/\ mu)\ log^2(d/\ eta))$无偏查询到$ f(x)$。这是第一个在dimension $ d $和精度$ \ eta $上具有\ emph {polylogarithmic依赖的查询复杂性的采样器。
translated by 谷歌翻译
人民的言论是自由下载的30,000小时,并在CC-BY-SA下进行学术和商业用途的许可的受监管的会话英语语音识别数据集(具有CC-by子集)。通过使用现有转录搜索适当许可的音频数据来通过搜索互联网来收集数据。我们描述了我们的数据收集方法,并在Apache 2.0许可证下发布了我们的数据收集系统。我们表明,在此数据集上培训的模型在Librispeech的测试清洁测试集上实现了9.98%的单词错误率。最后,我们讨论了围绕创建一个相当大量的机器学习的法律和道德问题,并计划继续维护项目的计划根据MLCommons的赞助。
translated by 谷歌翻译
公共数据集是商业AI软件的关键驱动程序之一。使用公共可用数据集(特别是商业目的)由DataSet许可证管理。这些数据集许可证概述权利人有权获得给定数据集的权利以及必须履行必须履行诸如违反许可违规行为的权利的义务。但是,与标准化开源软件(OSS)许可不同,现有数据集许可证以临时方式定义,并不明确概述与其使用相关的权利和义务。这使得检查潜在的许可合规性违规。此外,公共数据集可以托管在多个位置,并从多个数据源创建,每个数据源可以具有不同的许可。因此,不能使用现有的检查OSS许可合规性的方法。在本文中,如果要用于建立商业AI软件,则提出了一种新的方法来评估潜在的许可合规性违规行为,如果要用于建立商业AI软件。我们在Huawei的两个产品组上进行了方法,常用的公共数据集进行了试验。我们的研究结果表明,如果它们用于商业目的,这6个学习的数据集中有5个违规风险。因此,我们为AI工程师提供了如何更好地评估公开可用数据集以获得许可合规性违规的建议。
translated by 谷歌翻译
我们为大规模训练的大规模训练语言模型提供了更简单,更稀疏,更快的算法,这些算法在许多标准的NLP任务上实现了最新的隐私与实用性权衡。我们为此问题提出了一个元框架,这是受高度参数效率方法进行微调成功的启发。我们的实验表明,这些方法的差异化适应能力在三个重要方面优于以前的私人算法:实用程序,隐私以及私人培训的计算和记忆成本。在许多经常研究的数据集中,私人模型的实用性接近了非私人模型的方法。例如,在MNLI数据集上,我们使用Roberta-large的准确度为87.8 \%$,使用Roberta-Base $ 83.5 \%$,其隐私预算为$ \ Epsilon = 6.7 $。相比之下,缺乏隐私限制,罗伯塔·莱格(Roberta-Large)的准确度为$ 90.2 \%$。我们的发现对于自然语言生成任务类似。与DART,GPT-2-SMALL,GPT-2中,GPT-2-MEDIUM,GPT-2-LARGE和GPT-2-XL的私人微调达到38.5、42.0、43.1和43.8($ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 43.8) epsilon = 6.8,\ delta = $ 1E-5),而非私人基线为$ 48.1 $。我们所有的实验都表明,较大的模型更适合私人微调:虽然众所周知,它们旨在非优先实现卓越的准确性,但我们发现当引入隐私时,它们也更好地保持其准确性。
translated by 谷歌翻译